Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation
https://gyazo.com/84d55d864e6f3ddfa3da97d5ca443f27
VLN-DUET 概要
localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する
actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索 各ノードには, viewから得られた特徴量を埋め込み表現として保持する
行動 $ a^\piは各ノードへの尤度によって表現され, ノード0はstop-actionを指す.
Training
学習時は全体のグラフがわかってしまっているので, 工夫する必要あり
Fine-tuning
方策エントロピーを損失に加えることで, できるだけ探索空間を広く取りたいというモチベーションがある https://gyazo.com/835f1367cfc4318dc1a6d739b1ca868b